AI012

大規模言語モデルの深層分析

自律型エージェント、RLHF、および安全な整合性

講義

第8講

講師

AIチューター

分析するGUIエージェントのアーキテクチャ構成要素、特にマルチエージェントシステムにおける計画、意思決定、および自己認識モジュールを分析する。
説明する強化学習（RL）および人間からのフィードバックによる強化学習（RLHF）のメカニズムを説明し、報酬モデルとPPOがエージェントの行動を人間の価値観に一致させる役割について特に述べる。
評価する自律型エージェントにおける安全性リスクおよび信頼性の問題、特に分布外（OOD）エラー、脱獄攻撃、環境的干渉などを評価する。